Scikit-Learn এর মৌলিক ধারণা

Machine Learning - সাইকিট-লার্ন (Scikit-Learn)

211

Scikit-Learn একটি শক্তিশালী মেশিন লার্নিং লাইব্রেরি যা Python প্রোগ্রামিং ভাষায় তৈরি করা হয়েছে। এটি মেশিন লার্নিং মডেল তৈরির জন্য বিভিন্ন অ্যালগরিদম, ডেটা প্রি-প্রসেসিং টুলস, মডেল সিলেকশন এবং ইভ্যালুয়েশন মেট্রিক্স সরবরাহ করে। Scikit-Learn মূলত সহজ API, দ্রুত কর্মক্ষমতা, এবং ওপেন সোর্স প্রকৃতির কারণে জনপ্রিয়। এর মৌলিক ধারণাগুলি সহজে মেশিন লার্নিং মডেল তৈরি করতে সহায়ক, যা গবেষণা, ডেটা সায়েন্স এবং শিল্পের জন্য গুরুত্বপূর্ণ।

Scikit-Learn এর মৌলিক ধারণাগুলি

১. লেবেলড ডেটা (Labelled Data)

Scikit-Learn প্রাথমিকভাবে সুপারভাইজড লার্নিং পদ্ধতির জন্য ডিজাইন করা হয়েছে, যেখানে ডেটাসেটে ইনপুট এবং আউটপুট উভয়ই থাকে। ইনপুট ডেটার সাথে সঠিক আউটপুট (লেবেল) দেওয়া থাকে, এবং মডেলটি এই সম্পর্ক শিখে ভবিষ্যতের জন্য পূর্বাভাস করতে সক্ষম হয়। যেমন, একটি ক্লাসিফিকেশন সমস্যা যেখানে ইনপুট ডেটা হচ্ছে ইমেইল এবং আউটপুট হচ্ছে "স্প্যাম" বা "নন-স্প্যাম"।

২. মডেল ট্রেনিং (Model Training)

Scikit-Learn মডেল তৈরির প্রক্রিয়ায় fit() মেথড ব্যবহার করে মডেলটি ডেটার ওপর প্রশিক্ষিত করা হয়। এই প্রক্রিয়ায় মডেল ইনপুট এবং আউটপুট ডেটা থেকে সম্পর্ক শিখে।

from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X_train, y_train)  # মডেলটি প্রশিক্ষিত হচ্ছে

৩. মডেল পূর্বাভাস (Model Prediction)

মডেল ট্রেনিংয়ের পরে, predict() মেথড ব্যবহার করে মডেল নতুন ইনপুট ডেটার জন্য আউটপুট বা পূর্বাভাস করতে পারে।

predictions = model.predict(X_test)  # নতুন ডেটা থেকে পূর্বাভাস

৪. মডেল সিলেকশন এবং ইভ্যালুয়েশন (Model Selection and Evaluation)

Scikit-Learn মডেল সিলেকশন এবং ইভ্যালুয়েশন করার জন্য বিভিন্ন পদ্ধতি সরবরাহ করে। মডেল সিলেকশনের জন্য গ্রিড সার্চ (GridSearch) এবং ক্রস-ভ্যালিডেশন (Cross-validation) ব্যবহৃত হয়, যা মডেলের পারফরম্যান্স উন্নত করতে সহায়ক।

cross_val_score(): মডেলটি কতটা কার্যকর, তা মূল্যায়ন করতে ব্যবহৃত হয়।
accuracy_score(): ক্লাসিফিকেশন মডেলের একুরেসি মাপতে ব্যবহৃত হয়।
confusion_matrix(): কনফিউশন ম্যাট্রিক্স যা সঠিক এবং ভুল পূর্বাভাস দেখায়।

৫. ডেটা প্রি-প্রসেসিং (Data Preprocessing)

Scikit-Learn বিভিন্ন ডেটা প্রি-প্রসেসিং পদ্ধতি সরবরাহ করে, যা মডেল ট্রেনিংয়ের আগে ডেটাকে প্রস্তুত করতে সহায়ক। কিছু সাধারণ প্রি-প্রসেসিং টুলস হল:

স্কেলিং (Scaling): ডেটাকে একটি নির্দিষ্ট রেঞ্জে আনা (যেমন, StandardScaler() এবং MinMaxScaler() ব্যবহার করে)।
এনকোডিং (Encoding): ক্যাটেগরিক্যাল ভেরিয়েবলকে সংখ্যায় রূপান্তর করা (যেমন, OneHotEncoder() এবং LabelEncoder() ব্যবহার করে)।
মিসিং ভ্যালু পূর্ণ করা (Handling Missing Values): মিসিং ডেটা পূর্ণ করা (যেমন, SimpleImputer() ব্যবহার করে)।

৬. মডেল টিউনিং (Model Tuning)

Scikit-Learn বিভিন্ন মডেলের হাইপারপ্যারামিটার টিউনিং করার সুযোগ দেয়। GridSearchCV এবং RandomizedSearchCV ব্যবহার করে মডেলের পারফরম্যান্স উন্নত করা যায়। এই টুলগুলি ডেটাসেটের জন্য সর্বোত্তম হাইপারপ্যারামিটার সেট খুঁজে বের করতে সহায়ক।

from sklearn.model_selection import GridSearchCV
param_grid = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf']}
grid_search = GridSearchCV(SVC(), param_grid)
grid_search.fit(X_train, y_train)

Scikit-Learn এর কাজের ধরন

Scikit-Learn মডেলগুলিকে সাধারণত দুটি প্রধান ধাপে ব্যবহার করা হয়:

প্রশিক্ষণ (Training): ইনপুট ডেটা এবং আউটপুট লেবেল থেকে সম্পর্ক শিখে মডেল তৈরি করা।
পূর্বাভাস (Prediction): প্রশিক্ষিত মডেল ব্যবহার করে নতুন ইনপুট ডেটার জন্য পূর্বাভাস করা।

সারাংশ

Scikit-Learn একটি শক্তিশালী এবং ব্যবহারকারী-বান্ধব লাইব্রেরি যা মেশিন লার্নিং সমস্যাগুলি সমাধান করার জন্য সহজ এবং কার্যকরী উপায় সরবরাহ করে। এর মৌলিক ধারণাগুলি ডেটা প্রি-প্রসেসিং, মডেল ট্রেনিং, সিলেকশন এবং ইভ্যালুয়েশন, এবং টিউনিংয়ের ওপর ভিত্তি করে তৈরি, যা মেশিন লার্নিংয়ের জন্য গুরুত্বপূর্ণ এবং অপরিহার্য।

Content added By

SATT Academy

Features এবং Labels এর ধারণা

184

Features এবং Labels হল মেশিন লার্নিংয়ের মূল ধারণা, যা ডেটা প্রক্রিয়াকরণ এবং মডেল প্রশিক্ষণের জন্য গুরুত্বপূর্ণ। এগুলি সাধারণত ডেটাসেটের বিভিন্ন অংশ হিসেবে ব্যবহার করা হয়, এবং মডেল ট্রেনিং প্রক্রিয়ায় তাদের ভূমিকা অত্যন্ত গুরুত্বপূর্ণ।

Features (ফিচারস)

Features (ফিচারস) হল ইনপুট ডেটার বিভিন্ন বৈশিষ্ট্য বা পরিমাপ, যা মডেলকে শিখতে এবং পূর্বাভাস করতে সাহায্য করে। প্রতিটি ফিচার একটি নির্দিষ্ট বৈশিষ্ট্য বা ডেটার অংশের প্রতিনিধিত্ব করে, যা মডেলকে সিদ্ধান্ত নিতে সহায়ক হয়।

ফিচারস সাধারণত সংখ্যাসূচক (numerical) বা ক্যাটেগরিক্যাল (categorical) হতে পারে। যেমন:
- সংখ্যাসূচক ফিচারস: উচ্চতা, ওজন, বয়স, আয়, ইত্যাদি।
- ক্যাটেগরিক্যাল ফিচারস: লিঙ্গ (পুরুষ/মহিলা), রং (লাল, নীল, সবুজ), শহরের নাম, ইত্যাদি।

একটি ডেটাসেটের মধ্যে ফিচারস হল সেই তথ্য যা মডেল ব্যবহার করবে আউটপুট বা লেবেল পূর্বাভাস করার জন্য।

উদাহরণ:

ধরা যাক, একটি বাড়ির দাম পূর্বাভাস দিতে চাচ্ছি:

Features: বাড়ির আকার (স্কয়ার ফুট), ঘরের সংখ্যা, বাথরুমের সংখ্যা, এলাকা, ইত্যাদি।

Labels (লেবেলস)

Labels (লেবেলস) হল সেই আউটপুট বা টার্গেট ভ্যালু যা মডেল পূর্বাভাস করতে চায়। লেবেল হল সেই মান, যেটি ইনপুট ফিচারসের ভিত্তিতে আমরা খুঁজতে চাই।

Labels সাধারণত শ্রেণীভুক্ত (classification) বা পরিমাণগত (regression) হতে পারে:
- ক্লাসিফিকেশন: আউটপুট একটি ক্যাটেগরি বা শ্রেণি। যেমন, একটি ইমেইল কি "স্প্যাম" না "নন-স্প্যাম"।
- রিগ্রেশন: আউটপুট একটি ধারাবাহিক মান। যেমন, বাড়ির দাম, স্টক মূল্য, বা আবহাওয়া পূর্বাভাস।

উদাহরণ:

বাড়ির দাম পূর্বাভাসের ক্ষেত্রে:

Labels: বাড়ির দাম (যেমন, $300,000)।

Features এবং Labels এর মধ্যে পার্থক্য

বৈশিষ্ট্য	Features (ফিচারস)	Labels (লেবেলস)
ভূমিকা	ইনপুট তথ্যের বৈশিষ্ট্য	আউটপুট বা টার্গেট মান
প্রকার	সাধারণত ইনপুট বা ডেটার বিভিন্ন পরিমাপ	সাধারণত ডেটার আউটপুট বা ফলাফল
ধরণ	সংখ্যাসূচক বা ক্যাটেগরিক্যাল	ক্লাসিফিকেশন (ক্যাটেগরি) বা রিগ্রেশন (নম্বর)
উদাহরণ	বাড়ির আকার, ঘরের সংখ্যা, এলাকা	বাড়ির দাম

মেশিন লার্নিংয়ে Features এবং Labels এর ব্যবহার

মডেল প্রশিক্ষণ (Model Training):
মডেল ট্রেনিংয়ের জন্য Features (ফিচারস) ব্যবহার করা হয় ইনপুট হিসেবে, এবং Labels (লেবেলস) ব্যবহার করা হয় টার্গেট আউটপুট হিসেবে। মডেলটি ফিচারস থেকে শিখে এবং সেই ভিত্তিতে লেবেল পূর্বাভাস করতে শিখে।
Supervised Learning:
সুপারভাইজড লার্নিং পদ্ধতিতে, মডেলটি লেবেলড ডেটার উপর প্রশিক্ষিত হয়, যেখানে প্রতিটি ইনপুটের জন্য একটি সঠিক আউটপুট লেবেল দেওয়া থাকে। মডেলটি ফিচারস ব্যবহার করে লেবেল পূর্বাভাস করার চেষ্টা করে।

সারাংশ

Features (ফিচারস) হল ইনপুট ডেটার বিভিন্ন বৈশিষ্ট্য যা মডেল শিখবে।
Labels (লেবেলস) হল আউটপুট বা টার্গেট মান যা মডেল পূর্বাভাস করতে চায়।

মেশিন লার্নিংয়ে মডেলকে শিখানোর জন্য ফিচারস এবং লেবেলস গুরুত্বপূর্ণ ভূমিকা পালন করে, বিশেষ করে supervised learning পদ্ধতিতে।

Content added By

SATT Academy

Training এবং Testing Data এর ভূমিকা

224

মেশিন লার্নিংয়ে, Training Data এবং Testing Data দুটি গুরুত্বপূর্ণ ভূমিকা পালন করে। এদের সাহায্যে মডেল প্রশিক্ষণ এবং মূল্যায়ন করা হয়। এই দুটি ডেটাসেট মডেলের পারফরম্যান্স নির্ধারণ করতে সহায়ক, এবং সঠিকভাবে ডেটা ভাগ না করলে মডেলটি অত্যধিক ফিট বা অপর্যাপ্ত ফিট হতে পারে, যা ফলস্বরূপ কম কার্যকরী মডেল তৈরি করবে।

1. Training Data (ট্রেনিং ডেটা)

Training Data হলো সেই ডেটা যা মডেলকে শিখতে দেয়। এটি মডেলকে ইনপুট এবং আউটপুট (লেবেল) সম্পর্ক শিখতে সহায়ক হয়। Training Data ব্যবহার করে মডেলটি তার ওজন এবং প্যারামিটার আপডেট করে যাতে তা ডেটার প্যাটার্নগুলি সঠিকভাবে শিখতে পারে।

ট্রেনিং ডেটার ভূমিকা:

মডেল প্রশিক্ষণ:
মডেলটি এই ডেটা ব্যবহার করে শিখে এবং পারফরম্যান্স উন্নত করতে চেষ্টা করে।
প্যাটার্ন শিখন:
মডেল ইনপুট এবং আউটপুটের মধ্যে সম্পর্ক বুঝে, এবং বিভিন্ন ফিচারের মধ্যে পারস্পরিক সম্পর্ক শিখে।
অতিরিক্ত ফিচারের প্রভাব:
ট্রেনিং ডেটা মডেলটিকে শিখতে সহায়ক হলেও, অতিরিক্ত বা অপ্রয়োজনীয় ফিচার শিখিয়ে দিতে পারে। তাই ডেটা নির্বাচন গুরুত্বপূর্ণ।

উদাহরণ: ধরা যাক, একটি স্প্যাম ডিটেকশন সিস্টেম তৈরি করা হচ্ছে। Training Data-তে ইমেইল এবং তাদের লেবেল (স্প্যাম অথবা নন-স্প্যাম) থাকবে। মডেল এই ডেটা ব্যবহার করে শিখবে কীভাবে একটি ইমেইল স্প্যাম কিনা শনাক্ত করা যায়।

2. Testing Data (টেস্টিং ডেটা)

Testing Data হলো সেই ডেটা যা মডেল প্রশিক্ষণ শেষে মডেলটির কার্যকারিতা মূল্যায়ন করতে ব্যবহৃত হয়। Testing Data কখনোই মডেল প্রশিক্ষণের সময় ব্যবহৃত হয় না। এটি মডেলের জেনারেলাইজেশন ক্ষমতা যাচাই করার জন্য ব্যবহার করা হয়, অর্থাৎ এটি দেখতে সাহায্য করে যে মডেলটি নতুন, অজানা ডেটাতে কেমন পারফর্ম করবে।

টেস্টিং ডেটার ভূমিকা:

পারফরম্যান্স মূল্যায়ন:
মডেলের একুরেসি, প্রিসিশন, রিকল, ফ-স্কোর এবং অন্যান্য মেট্রিক্সের মাধ্যমে মডেলের পারফরম্যান্স পরীক্ষা করা হয়।
জেনারালাইজেশন ক্ষমতা:
টেস্টিং ডেটা মডেলটির বাস্তব জীবন পরিস্থিতিতে সঠিকভাবে কাজ করার সম্ভাবনা যাচাই করে।
অতিরিক্ত ফিটিং পরিহার:
মডেল যদি শুধুমাত্র ট্রেনিং ডেটার উপর অত্যধিক ফিট হয়ে যায়, তবে এটি নতুন ডেটাতে ভালো পারফর্ম করবে না। Testing Data এর মাধ্যমে এমন মডেল শনাক্ত করা যায়।

উদাহরণ: এটি ঐ একই স্প্যাম ডিটেকশন সিস্টেমের উদাহরণ হতে পারে, যেখানে Testing Data ব্যবহার করে মডেলটি নতুন, অজ্ঞাত ইমেইল যাচাই করবে এবং দেখবে সেগুলি সঠিকভাবে স্প্যাম বা নন-স্প্যাম হিসাবে শ্রেণীবদ্ধ হচ্ছে কিনা।

Training এবং Testing Data এর মধ্যে পার্থক্য

বৈশিষ্ট্য	Training Data	Testing Data
উদ্দেশ্য	মডেলকে শিখানো	মডেলের পারফরম্যান্স মূল্যায়ন
ব্যবহার	মডেল প্রশিক্ষণ ও প্যারামিটার আপডেট	মডেলকে নতুন ডেটাতে পরীক্ষা করা
প্রবেশ	মডেল প্রশিক্ষণের সময় ব্যবহৃত	মডেল প্রশিক্ষণের পর ব্যবহৃত
ফলস্বরূপ	মডেলের ফিচারগুলি এবং প্যাটার্ন শিখতে সহায়ক	মডেলের জেনারালাইজেশন ক্ষমতা পরিমাপ

3. Validation Data (ভ্যালিডেশন ডেটা)

এছাড়াও, অনেক সময় Validation Data ব্যবহৃত হয়, যা Training Data এবং Testing Data এর মধ্যে একটি মধ্যবর্তী ডেটাসেট হিসেবে কাজ করে। এটি মডেলের পারফরম্যান্স মূল্যায়ন করতে ব্যবহৃত হয় যখন মডেলটি প্রশিক্ষিত হয়, কিন্তু এটি Testing Data থেকে আলাদা থাকে।

Hyperparameter tuning: Validation Data হাইপারপ্যারামিটার সিলেকশনের জন্য ব্যবহার হয়, যাতে মডেলটি আরও ভালো পারফর্ম করতে পারে।

সারাংশ

Training Data হলো সেই ডেটা যা মডেল প্রশিক্ষণের জন্য ব্যবহৃত হয় এবং মডেল প্যাটার্ন শিখতে সহায়ক।
Testing Data হলো সেই ডেটা যা মডেলের কার্যকারিতা এবং জেনারালাইজেশন ক্ষমতা মূল্যায়ন করতে ব্যবহৃত হয়।

এই দুটি ডেটাসেট সঠিকভাবে ব্যবহার করলে মডেলটি প্রকৃত জীবনের সমস্যায় আরও ভালো পারফর্ম করতে সক্ষম হবে।

Content added By

SATT Academy

Supervised এবং Unsupervised Learning এর ধারণা

176

মেশিন লার্নিং-এর দুটি প্রধান ধরন হলো Supervised Learning এবং Unsupervised Learning। এই দুইটি পদ্ধতির মধ্যে মৌলিক পার্থক্য হলো ডেটার সাথে সম্পর্কিত আউটপুট বা ট্যাগের উপস্থিতি। এখানে আমরা প্রতিটি পদ্ধতি বিস্তারিতভাবে আলোচনা করছি।

Supervised Learning (সুপারভাইজড লার্নিং)

Supervised Learning হলো এমন একটি মেশিন লার্নিং পদ্ধতি যেখানে মডেলকে লেবেলড (labelled) ডেটা দিয়ে প্রশিক্ষণ দেয়া হয়। অর্থাৎ, ইনপুট ডেটার জন্য সঠিক আউটপুট (লেবেল) প্রদান করা হয়, এবং মডেল এটি শিখে ভবিষ্যতে নতুন ইনপুট ডেটার জন্য আউটপুট পূর্বাভাস দেয়।

প্রক্রিয়া:

ডেটা সংগ্রহ: লেবেলড ডেটাসেটের ইনপুট (features) এবং আউটপুট (labels) দেয়া হয়।
মডেল প্রশিক্ষণ: মডেল ইনপুট এবং আউটপুট সম্পর্ক শিখে।
পূর্বাভাস: প্রশিক্ষিত মডেলটি নতুন ইনপুট ডেটার জন্য আউটপুট (লেবেল) পূর্বাভাস দেয়।

উদাহরণ:

ক্লাসিফিকেশন (Classification): একটি ইমেইল সিস্টেমের মাধ্যমে স্প্যাম বা নন-স্প্যাম শনাক্ত করা।
রিগ্রেশন (Regression): ভবিষ্যতের স্টক মূল্য বা আবহাওয়ার পূর্বাভাস করা।

উপকারিতা:

লেবেলড ডেটা থাকলে, মডেল সাধারণত বেশি সঠিক ফলাফল দেয়।
এটি খুব নির্দিষ্ট এবং সহজে বোঝার মতো কাজের জন্য কার্যকর।

Unsupervised Learning (আনসুপারভাইজড লার্নিং)

Unsupervised Learning হলো এমন একটি মেশিন লার্নিং পদ্ধতি যেখানে ডেটার কোনো লেবেল বা আউটপুট দেয়া হয় না। অর্থাৎ, ইনপুট ডেটার কোনো আউটপুট বা লক্ষ্য (target) থাকে না এবং মডেলটি নিজেরাই প্যাটার্ন বা সম্পর্ক বের করার চেষ্টা করে।

প্রক্রিয়া:

ডেটা সংগ্রহ: ডেটাতে কোনো লেবেল বা আউটপুট দেয়া হয় না।
প্যাটার্ন শিখা: মডেল ডেটার মধ্যে লুকানো সম্পর্ক বা প্যাটার্ন বের করার চেষ্টা করে।
গ্রুপিং বা শ্রেণীবিন্যাস: মডেল সাধারণত ডেটাকে গ্রুপ বা ক্লাস্টারে ভাগ করে।

উদাহরণ:

ক্লাস্টারিং (Clustering): গ্রাহক সেগমেন্টেশন বা ডেটার গ্রুপ তৈরি করা (যেমন, মার্কেটিং টার্গেটিং)।
ডাইমেনশনালিটি রিডাকশন (Dimensionality Reduction): বড় ডেটার আকার ছোট করা বা অপ্রয়োজনীয় বৈশিষ্ট্যগুলি অপসারণ করা (যেমন, PCA)।

উপকারিতা:

লেবেলড ডেটার প্রয়োজন না হওয়ায় এটি অনেক ডেটা বিশ্লেষণের ক্ষেত্রে সহজ।
নতুন প্যাটার্ন বা সম্পর্ক চিহ্নিত করতে সহায়ক।

Supervised vs Unsupervised Learning:

বৈশিষ্ট্য	Supervised Learning	Unsupervised Learning
ডেটার ধরন	লেবেলড ডেটা (Labelled Data)	লেবেলহীন ডেটা (Unlabelled Data)
লক্ষ্য	আউটপুট (লেবেল) পূর্বাভাস করা	ডেটার মধ্যে প্যাটার্ন বা গঠন খুঁজে বের করা
উদাহরণ	ক্লাসিফিকেশন, রিগ্রেশন	ক্লাস্টারিং, আউটলাইয়ার ডিটেকশন
ব্যবহার	নির্দিষ্ট আউটপুট প্রয়োজন (যেমন, স্প্যাম বা নন-স্প্যাম)	সাধারণত ডেটার অন্তর্নিহিত কাঠামো বিশ্লেষণ করা

সারাংশ

Supervised Learning এমন একটি পদ্ধতি যেখানে মডেলটি লেবেলড ডেটা থেকে শিখে এবং ভবিষ্যতের জন্য পূর্বাভাস প্রদান করে।
Unsupervised Learning একটি পদ্ধতি যেখানে ডেটার আউটপুট বা লেবেল ছাড়াই মডেলটি ডেটার মধ্যে লুকানো প্যাটার্ন বা গঠন খুঁজে বের করে।

এছাড়া, Supervised Learning সাধারণত আরও সঠিক ফলাফল প্রদান করে যদি লেবেলড ডেটা থাকে, যেখানে Unsupervised Learning নতুন প্যাটার্ন এবং সম্পর্ক বের করার জন্য ব্যবহৃত হয়।

Content added By

SATT Academy

Model Selection এবং Cross-Validation

159

Model Selection (মডেল সিলেকশন) এবং Cross-Validation (ক্রস-ভ্যালিডেশন) মেশিন লার্নিং প্রক্রিয়ায় দুটি অত্যন্ত গুরুত্বপূর্ণ পদক্ষেপ। এগুলি মডেলের পারফরম্যান্স নির্ধারণ এবং সঠিক মডেল নির্বাচন করতে সহায়ক।

Model Selection (মডেল সিলেকশন)

মডেল সিলেকশন হলো এমন একটি প্রক্রিয়া যার মাধ্যমে আপনি একটি বা একাধিক মডেল নির্বাচন করেন যা আপনার সমস্যার জন্য সর্বোত্তম পারফরম্যান্স প্রদান করবে। বিভিন্ন ধরনের মডেল যেমন, লিনিয়ার রিগ্রেশন, র‍্যান্ডম ফরেস্ট, সাপোর্ট ভেক্টর মেশিন (SVM) এবং কনভোলিউশনাল নিউরাল নেটওয়ার্ক (CNN) এর মধ্যে থেকে সেরা মডেল নির্বাচন করা হয়।

মডেল সিলেকশন প্রক্রিয়া:

ডেটা প্রস্তুতকরণ:
প্রথমে আপনার ডেটা ট্রেন এবং টেস্ট সেটে ভাগ করা হয়, যাতে আপনি মডেলটি প্রশিক্ষণ ও মূল্যায়ন করতে পারেন।
মডেল ট্রেনিং:
বিভিন্ন ধরনের মডেল ব্যবহার করে ডেটাতে প্রশিক্ষণ প্রদান করা হয়।
হাইপারপ্যারামিটার টিউনিং:
কিছু মডেল তাদের হাইপারপ্যারামিটার যেমন, learning rate, number of trees (র‍্যান্ডম ফরেস্ট), C parameter (SVM) ইত্যাদি নিয়ে কাজ করে। এগুলির সেরা মান খুঁজে বের করতে হয়।
মডেল ইভ্যালুয়েশন:
মডেলটির পারফরম্যান্স পরীক্ষা করার জন্য বিভিন্ন মেট্রিক্স ব্যবহার করা হয়, যেমন accuracy, precision, recall, F1-score ইত্যাদি।

Cross-Validation (ক্রস-ভ্যালিডেশন)

Cross-validation একটি টেকনিক যা মডেল পারফরম্যান্সের জেনারেলাইজেশন ক্ষমতা পরিমাপ করতে ব্যবহৃত হয়। এর মাধ্যমে মডেলটি বিভিন্ন ডেটা সেটের উপর প্রশিক্ষণ ও পরীক্ষা করা হয়, যাতে মডেলটি যে কোনো অজ্ঞাত বা নতুন ডেটার উপর ভালভাবে কাজ করতে পারে।

ক্রস-ভ্যালিডেশন প্রক্রিয়া:

ডেটার ভাগ করা (k-folds):
ডেটা একটি নির্দিষ্ট সংখ্যক k ফোল্ডে ভাগ করা হয়। উদাহরণস্বরূপ, যদি k=5 হয়, তবে ডেটাকে ৫টি সমান ভাগে ভাগ করা হবে। প্রতিটি ফোল্ড একবার টেস্ট ডেটা হিসেবে ব্যবহৃত হবে এবং বাকি ফোল্ডগুলি ট্রেনিং ডেটা হিসেবে ব্যবহৃত হবে।
প্রতিটি ফোল্ডে মডেল প্রশিক্ষণ এবং মূল্যায়ন:
মডেলটি প্রতি ফোল্ডে ট্রেনিং এবং টেস্টিং হয়। প্রতিটি ফোল্ডের শেষে মডেলটি একটি স্কোর দেয়, যা মডেলটির পারফরম্যান্স পরিমাপ করতে ব্যবহৃত হয়।
পারফরম্যান্স পরিমাপ:
মডেলটি সমস্ত ফোল্ডের উপর মূল্যায়ন করা হয় এবং সমস্ত ফোল্ডের স্কোর গড়ে final performance score তৈরি করা হয়।

Common Types of Cross-Validation:

k-fold Cross-Validation:
ডেটা ক-টি ফোল্ডে ভাগ করা হয় এবং প্রতিটি ফোল্ডের উপর ট্রেনিং এবং টেস্টিং করা হয়।
Stratified k-fold Cross-Validation:
যখন ডেটাতে অসামান্য শ্রেণিবিন্যাস (class imbalance) থাকে, তখন Stratified k-fold cross-validation ব্যবহার করা হয় যাতে প্রতিটি ফোল্ডে শ্রেণির আনুপাতিক পরিমাণ থাকে।
Leave-One-Out Cross-Validation (LOO-CV):
ডেটাসেটের প্রত্যেকটি নমুনা একটি আলাদা টেস্ট স্যাম্পল হিসেবে ব্যবহার করা হয় এবং বাকি ডেটাকে ট্রেনিং হিসেবে ব্যবহৃত হয়।

Scikit-Learn এ Model Selection এবং Cross-Validation ব্যবহার

Scikit-Learn লাইব্রেরি মডেল সিলেকশন এবং ক্রস-ভ্যালিডেশন করার জন্য অনেক কার্যকরী টুলস সরবরাহ করে। নিচে কিছু সাধারণ ফাংশনের উদাহরণ দেওয়া হলো:

1. Train-Test Split

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

2. k-fold Cross-Validation

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
scores = cross_val_score(model, X, y, cv=5)  # 5-fold cross-validation
print("Cross-validation scores:", scores)

3. GridSearchCV (Hyperparameter Tuning)

from sklearn.model_selection import GridSearchCV
param_grid = {'n_estimators': [10, 50, 100], 'max_depth': [5, 10, None]}
grid_search = GridSearchCV(RandomForestClassifier(), param_grid, cv=5)
grid_search.fit(X_train, y_train)
print("Best parameters:", grid_search.best_params_)

4. Stratified k-fold Cross-Validation

from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score

stratified_kf = StratifiedKFold(n_splits=5)
scores = cross_val_score(RandomForestClassifier(), X, y, cv=stratified_kf)
print("Stratified Cross-validation scores:", scores)

সারাংশ

Model Selection হলো মডেল এবং তার হাইপারপ্যারামিটার নির্বাচন করা যাতে সেরা পারফরম্যান্স পাওয়া যায়।
Cross-Validation একটি প্রক্রিয়া যা মডেলটির পারফরম্যান্স পরীক্ষা করে যাতে এটি নতুন, অজ্ঞাত ডেটার উপর ভালভাবে কাজ করতে পারে।
Scikit-Learn এ অনেক শক্তিশালী টুলস যেমন train_test_split, cross_val_score, GridSearchCV, StratifiedKFold ইত্যাদি মডেল সিলেকশন এবং ক্রস-ভ্যালিডেশন পরিচালনা করতে সহায়ক।

Content added By

SATT Academy

Scikit-Learn পরিচিতি Scikit-Learn ইনস্টলেশন এবং সেটআপ Data Preprocessing Train-Test Split এবং Cross-Validation Supervised Learning এর বেসিক ধারণা

Scikit-Learn এর মৌলিক ধারণা

Scikit-Learn এর মৌলিক ধারণাগুলি

১. লেবেলড ডেটা (Labelled Data)

২. মডেল ট্রেনিং (Model Training)

৩. মডেল পূর্বাভাস (Model Prediction)

৪. মডেল সিলেকশন এবং ইভ্যালুয়েশন (Model Selection and Evaluation)

৫. ডেটা প্রি-প্রসেসিং (Data Preprocessing)

৬. মডেল টিউনিং (Model Tuning)

Scikit-Learn এর কাজের ধরন

সারাংশ

Features এবং Labels এর ধারণা

Features (ফিচারস)

উদাহরণ:

Labels (লেবেলস)

উদাহরণ:

Features এবং Labels এর মধ্যে পার্থক্য

মেশিন লার্নিংয়ে Features এবং Labels এর ব্যবহার

সারাংশ

Training এবং Testing Data এর ভূমিকা

1. Training Data (ট্রেনিং ডেটা)

ট্রেনিং ডেটার ভূমিকা:

2. Testing Data (টেস্টিং ডেটা)

টেস্টিং ডেটার ভূমিকা:

Training এবং Testing Data এর মধ্যে পার্থক্য

3. Validation Data (ভ্যালিডেশন ডেটা)

সারাংশ

Supervised এবং Unsupervised Learning এর ধারণা

Supervised Learning (সুপারভাইজড লার্নিং)

প্রক্রিয়া:

উদাহরণ:

উপকারিতা:

Unsupervised Learning (আনসুপারভাইজড লার্নিং)

প্রক্রিয়া:

উদাহরণ:

উপকারিতা:

Supervised vs Unsupervised Learning:

সারাংশ

Model Selection এবং Cross-Validation

Model Selection (মডেল সিলেকশন)

মডেল সিলেকশন প্রক্রিয়া:

Cross-Validation (ক্রস-ভ্যালিডেশন)

ক্রস-ভ্যালিডেশন প্রক্রিয়া:

Common Types of Cross-Validation:

Scikit-Learn এ Model Selection এবং Cross-Validation ব্যবহার

1. Train-Test Split

2. k-fold Cross-Validation

3. GridSearchCV (Hyperparameter Tuning)

4. Stratified k-fold Cross-Validation

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!